report.knit

Mục tiêu của phân tích

Phân tích được thực hiện nhằm trực quan hoá dữ liệu về Olympics (Thế vận hội) để từ đó người xem có thể:

  1. Có được góc nhìn toàn cảnh thế vận hội
  2. Thấy được mối quan hệ giữa kinh tế xã hội với thành tích của các quốc gia tại Olympic.

Dữ liệu

Dữ liệu được sử dụng trong phân tích là dữ liệu về các nước tham dự, cũng như thành tích các nước trong thế vận hội từ năm 1896 đến 2016 (120 năm).

Link download

Các trường dữ liệu trong tập data trên là:

  1. ID - ID unique của từng vận động viên
  2. Name - Tên của vận động viên
  3. Sex - Giới tính. M: Nam, F: Nữ
  4. Age - Tuổi
  5. Height - Chiều cao (Đơn vị centimet)
  6. Weight - Cân nặng (Đơn vị Kg)
  7. Team - Tên đội tuyển (Tên quốc gia)
  8. NOC - Đoàn Olympics tham gia (Viết tắt 3 chữ cái của quốc gia)
  9. Games - Năm diễn ra và Mùa (Thế vận đội mùa đông và mùa hè)
  10. Year - Năm diễn ra
  11. Season - Summer: Mùa hè, Winter: Mùa đông
  12. City - Thành phố đăng cai
  13. Sport - Môn thi đấu
  14. Event - Mục thi đấu cụ thể (nằm bên trong môn thi đấu)
  15. Medal - Huy chương. Gold: vàng, Silver: bạc, Bronze: đồng, và NA: Không có huy chương

Data frame cụ thể như sau:

Missing data

Tập dữ liệu có một số trường thông tin bị missing ví dụ:

Như vậy, trừ phi phải sử dụng đến phân tích liên quan đến weight, height và age, nếu không ta không cần xử lý gì dữ liệu bị thiếu này.

Dữ liệu phụ

Nhằm phân tích thêm góc nhìn là khu vực địa lý (châu lục của quốc gia tham gia thế vận hội) ta có sử dụng thêm data về quốc gia và châu lục

Dữ liệu này gồm 2 cột:

Bảng data phụ lúc đầu (trước khi join với tên châu lục)

Bảng data sau khi join với tên châu lục

Tổng quan về Olympics

Thế vận hội có một số đối tượng mà ta quan tâm:

Ở Olympics người ta thi gì?

Thế vận hội bắt đầu được tổ chức vào năm 1896 và suốt từ đó đến nay, ngoại trừ giai đoạn chiến tranh thế giới, thì cứ 4 năm một lần thế vận hội mùa hè được tổ chức.

Thế vận hội mùa động được bắt đầu năm 1924, sau khi chiến tranh thế giới thứ nhất kết thúc khoảng 10 năm và cũng được tổ chức 4 năm một lần.

Đến những năm 80 thì 2 thế vận hội này không được tổ chức cùng năm nữa mà xen kẽ nhau. Do nếu tổ chức cùng lúc thì quá tốn kém và gây nhiều khó khăn cho ban tổ chức và các quốc gia tham dự.

Số lượng các môn thể thao đã tăng mạnh kể từ những năm 80 cho đến nay, với thế vận hội mùa hè hiện tại có 34 môn còn thế vận hội mùa đông là 15 môn.

Các môn thi đấu

Tại thế vận hội (tính cả mùa hè và mùa đông):

Hầu hết những môn có nhiều nội dung thi đấu thì thường là những môn được tổ chức thường xuyên (trong nhiều năm). Điều này có thể lý giải mối quan hệ 2 chiều là môn nào được tổ chức lâu năm thì người ta sẽ có nhiều thời gian để nghĩ ra thêm nhiều nội dung. Đồng thời môn nào càng có khả năng nghĩ ra được nhiều nội dung thi đấu đa dạng thì càng được ưa chuộng và tổ chức nhiều.

Tất nhiên cũng có những ngoại lệ như Bóng đá, Bóng rổ, hay Hockey những môn thể thao rất phổ biến dù có Olympics hay không.

Các môn thi đấu các nước tham gia

Do có sự khác biệt đáng kể giữa các môn thể thao của thế vận hội mùa đông và mùa hè, nên bắt đầu từ phần này ta sẽ chỉ phân tích Thế vận hội mùa hè.

Trong thế vận hội mùa hè, ta có thể thấy:

Các quốc gia tham gia như thế nào tại thế vận hội mùa hè

Sự tham gia của các quốc gia tại thế vận hội được thể hiện ở số vận động viên mà họ cử đến ở mỗi môn thể thao.

Những nước nào cử nhiều vận động viên tham gia?

Ta sẽ chia các quốc gia vào các vùng lãnh thổ và xem trung bình mỗi năm thì các nước cử bao nhiêu vận động viên thi đấu, top 5 nước có nhiều vận động viên nhất.

Dễ thấy, các quốc gia lớn, phát triển có nhiều vận động viên tham gia nhất.

Nếu xét theo từng châu lục thì:

Bình đẳng giới tại Olympics mùa hè

Trong quá khứ phụ nữ thường ít khi được cử đi thi đấu, hoặc chính xác hơn là có ít nội dung thi đấu cho nữ nhưng càng ngày thì điều này càng được thay đổi.

Gần đây, số vận động viên nữ tham gia cũng đang tiến gần bằng số lượng vận động viên nam.

Các quốc gia đạt thành tích gì tại thế vận hội mùa hè

Thành tích của quốc gia được thể hiện ở số huy chương mà họ giành được ở mỗi môn thể thao.

Ta sẽ xét 10 quốc gia có số lượng huy chương lớn nhất trong lịch sử thế vận hội mùa hè:

Để phản ánh thành tích các quốc gia ở thế vận hội một cách chính xác và cập nhật hơn, ta sẽ xét Số huy chương mà các quốc gia giành được trong 10 kỳ thế vận hội gần nhất (tính từ năm 1988, khi Liên xô bắt đầu tan rã và Trung quốc tham gia thường xuyên ở Olympics). Ta cũng chỉ xét thế vận hội mùa hè.

Cụ thể theo thời gian, số lượng huy chương và thứ hạng của các nước đã thay đổi như thế nào?

Thể hiện số huy chương các đoàn thể thao giành được trên bản đồ thế giới:

Mối liên hệ giữa thành tích tại Olympic và các yếu tố khác

Câu hỏi đặt ra là liệu GDP, dân số, HDI (chỉ số phát triển con người) của 1 quốc gia có tương quan gì với Olympic không.

Tương quan giữa GDP và thành tích tại Olympic:

Nếu không tính các ngoại lệ như UAE, Trung quốc, … thì có mối liên hệ đồng biến khá rõ giữa GDP đầu người và thành tích tại Olympic.

Nếu xét chỉ số HDI

Ta thấy rõ một sự phân hoá giữa các nước khi sử dụng HDI, các nước có số huy chương cao được phân thành 2 nhóm khá rõ là nhóm có HDI cao và HDI thấp

Như vậy nếu kết hợp cả 2 chiều là HDI và GDP bình quân thì có thể phân loại khá tốt các nước ở Olympic.

Ta thử vẽ đồ thị với cả 2 chiều HDI và GDP bình quân đầu người:

Như vậy, có tương quan mạnh và đồng biến giữa GDP bình quân đầu người, HDI với số lượng huy chương quốc gia giành được. Bên cạnh đó ta cũng thấy được sự tương quan giữa GDP bình quân với HDI.